不利的天气条件(例如阴霾,雨水和雪)通常会损害被捕获的图像的质量,从而导致在正常图像上训练的检测网络在这些情况下概括了很差。在本文中,我们提出了一个有趣的问题 - 如果图像恢复和对象检测的结合可以提高不利天气条件下尖端探测器的性能。为了回答它,我们提出了一个有效但统一的检测范式,该范式通过动态增强学习将这两个子任务桥接在一起,以在不利的天气条件下辨别对象,称为Togethernet。与现有的努力不同,这些努力将图像除去/der绘制为预处理步骤,而是考虑了一个多任务联合学习问题。遵循联合学习方案,可以共享由恢复网络产生的清洁功能,以在检测网络中学习更好的对象检测,从而有助于TogEthERNET在不利天气条件下增强检测能力。除了联合学习体系结构外,我们还设计了一个新的动态变压器功能增强模块,以提高togethernet的功能提取和表示功能。对合成和现实世界数据集的广泛实验表明,我们的togethernet在定量和质量上都超过了最先进的检测方法。源代码可从https://github.com/yz-wang/togethernet获得。
translated by 谷歌翻译
图像平滑是一项基本的低级视觉任务,旨在保留图像的显着结构,同时删除微不足道的细节。图像平滑中已经探索了深度学习,以应对语义结构和琐碎细节的复杂纠缠。但是,当前的方法忽略了平滑方面的两个重要事实:1)受限数量的高质量平滑地面真相监督的幼稚像素级回归可能会导致域的转移,并导致对现实世界图像的概括问题; 2)纹理外观与对象语义密切相关,因此图像平滑需要意识到语义差异以应用自适应平滑强度。为了解决这些问题,我们提出了一个新颖的对比语义引导的图像平滑网络(CSGIS-NET),该网络在促进强大的图像平滑之前结合了对比的先验和语义。通过利用不希望的平滑效应作为负面教师,并结合分段任务以鼓励语义独特性来增强监督信号。为了实现所提出的网络,我们还使用纹理增强和平滑标签(即VOC-Smooth)丰富了原始的VOC数据集,它们首先桥接图像平滑和语义分割。广泛的实验表明,所提出的CSGI-NET大量优于最先进的算法。代码和数据集可在https://github.com/wangjie6866/csgis-net上找到。
translated by 谷歌翻译
步态描绘了个人独特而区别的步行模式,并已成为人类识别最有希望的生物识别特征之一。作为一项精细的识别任务,步态识别很容易受到许多因素的影响,并且通常需要大量完全注释的数据,这些数据是昂贵且无法满足的。本文提出了一个大规模的自我监督基准,以通过对比度学习进行步态识别,旨在通过提供信息丰富的步行先验和各种现实世界中的多样化的变化,从大型的无标记的步行视频中学习一般步态代表。具体而言,我们收集了一个由1.02m步行序列组成的大规模的无标记的步态数据集gaitu-1m,并提出了一个概念上简单而经验上强大的基线模型步态。在实验上,我们在四个广泛使用的步态基准(Casia-B,Ou-Mvlp,Grew and Grew and Gait3d)上评估了预训练的模型,或者在不转移学习的情况下。无监督的结果与基于早期模型和基于GEI的早期方法相当甚至更好。在转移学习后,我们的方法在大多数情况下都超过现有方法。从理论上讲,我们讨论了步态特异性对比框架的关键问题,并提供了一些进一步研究的见解。据我们所知,Gaitlu-1M是第一个大规模未标记的步态数据集,而GaitSSB是第一种在上述基准测试基准上取得显着无监督结果的方法。 GaitSSB的源代码将集成到OpenGait中,可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
雨是最常见的天气之一,可以完全降低图像质量并干扰许多计算机视觉任务的执行,尤其是在大雨条件下。我们观察到:(i)雨是雨水和雨淋的混合物; (ii)场景的深度决定了雨条的强度以及变成多雨的阴霾的强度; (iii)大多数现有的DERANE方法仅在合成雨图像上进行训练,因此对现实世界的场景概括不佳。在这些观察结果的激励下,我们提出了一种新的半监督,清除降雨生成的对抗网络(半密集),该混合物由四个关键模块组成:(i)新的注意力深度预测网络以提供精确的深度估计; (ii)上下文特征预测网络由几个精心设计的详细残留块组成,以产生详细的图像上下文特征; (iii)金字塔深度引导的非本地网络,以有效地将图像上下文与深度信息整合在一起,并产生最终的无雨图像; (iv)全面的半监督损失函数,使该模型不限于合成数据集,而是平稳地将其概括为现实世界中的大雨场景。广泛的实验表明,在合成和现实世界中,我们的二十多种代表性的最先进的方法对我们的方法进行了明显的改进。
translated by 谷歌翻译
被遮挡的人重新识别(RE-ID)旨在解决跨多个摄像机感兴趣的人时解决遮挡问题。随着深度学习技术的促进和对智能视频监视的需求的不断增长,现实世界应用中的频繁闭塞使闭塞的人重新引起了研究人员的极大兴趣。已经提出了大量封闭的人重新ID方法,而很少有针对遮挡的调查。为了填补这一空白并有助于提高未来的研究,本文提供了对封闭者重新ID的系统调查。通过对人体闭塞的深入分析,发现大多数现有方法仅考虑一部分闭塞问题。因此,我们从问题和解决方案的角度回顾了与闭塞相关的人重新ID方法。我们总结了个人重新闭塞引起的四个问题,即位置错位,规模错位,嘈杂的信息和缺失的信息。然后对解决不同问题的闭塞相关方法进行分类和引入。之后,我们总结并比较了四个流行数据集上最近被遮挡的人重新ID方法的性能:部分reid,部分易边,咬合 - 固定和遮挡的dukemtmc。最后,我们提供了有关有希望的未来研究方向的见解。
translated by 谷歌翻译
步态识别在预防犯罪和社会保障方面起了重要作用,因为它可以在不合作的情况下以远距离进行。但是,现有的数据集和方法无法有效地处理实际步态识别中最具挑战性的问题:穿着不同的衣服行走(CL)。为了解决这个问题,我们提出了两个基准:CASIA-BN-RCC和OUMVLP-RCC,以模拟实践中的布换状态。这两个基准可以迫使该算法与两个子数据集实现交叉视图和交叉插入。此外,我们提出了一个新框架,可以使用现成的骨干进行应用,以在渐进式功能学习中改善其在逼真的换衣服问题中的性能。具体而言,在我们的框架中,我们设计了渐进式映射和渐进的不确定性,以提取交叉视图功能,然后根据基础提取交叉插入功能。通过这种方式,跨视图子数据库的特征首先可以主导特征空间,并缓解由跨夹子子数据库的不良效应引起的不均匀分布。基准上的实验表明,我们的框架可以有效地改善CL条件下的识别性能。接受后,我们的代码和数据集将在接受后发布。
translated by 谷歌翻译
步态是长距离识别个体的最有前途的生物识别技术之一。尽管大多数以前的方法都集中在识别轮廓上,但直接从RGB图像中提取步态特征的几种端到端方法表现更好。但是,我们证明了这些端到端方法可能不可避免地会遭受步态液化的噪音,即低级纹理和丰富多彩的信息。在实验上,我们设计了跨域评估以支持这种观点。在这项工作中,我们提出了一个名为Gaitedge的新颖端到端框架,该框架可以有效地阻止步态 - 近距离信息并发布端到端训练潜力。具体而言,Gaitede合成了行人分割网络的输出,然后将其馈送到随后的识别网络中,在该网络中,合成轮廓由身体的可训练边缘和固定内部室内装饰组成,以限制识别网络接收的信息。此外,对齐轮廓的步态嵌入了盖地,而不会失去不同的性能。关于CASIA-B和我们新建的TTG-200的实验结果表明,Gaitedge明显优于先前的方法,并提供了更实用的端到端范式。所有源代码均可在https://github.com/shiqiyu/opengait上获得。
translated by 谷歌翻译
基于深度学习的计算机辅助诊断(CAD)已成为医疗行业的重要诊断技术,有效提高诊断精度。然而,脑肿瘤磁共振(MR)图像数据集的稀缺性导致深度学习算法的低性能。传统数据增强(DA)生成的转换图像的分布本质上类似于原始的图像,从而在泛化能力方面产生有限的性能。这项工作提高了具有结构相似性损失功能(PGGAN-SSIM)的GAN的逐步生长,以解决图像模糊问题和模型崩溃。我们还探讨了其他基于GAN的数据增强,以证明所提出的模型的有效性。我们的结果表明,PGGAN-SSIM成功地生成了256x256的现实脑肿瘤MR图像,填充了原始数据集未发现的真实图像分布。此外,PGGAN-SSSIM超过了其他基于GAN的方法,实现了FRECHET成立距离(FID)和多尺度结构相似性(MS-SSIM)的有希望的性能提升。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译